检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于多特征融合的深度视频自然语言描述方法

梁锐, 朱清新, 廖淑娇, 牛新征

计算机应用 2017, 37 (4): 1179-1184. DOI: 10.11772/j.issn.1001-9081.2017.04.1179

摘要（520）

PDF （999KB）（566）

针对计算机对视频进行自动标注和描述准确率不高的问题，提出一种基于多特征融合的深度视频自然语言描述的方法。该方法提取视频帧序列的空间特征、运动特征、视频特征，进行特征的融合，使用融合的特征训练基于长短期记忆（LSTM）的自然语言描述模型。通过不同的特征组合训练多个自然语言描述模型，在测试时再进行后期融合，即先选择一个模型获取当前输入的多个可能的输出，再使用其他模型计算当前输出的概率，对这些输出的概率进行加权求和，取概率最高的作为输出。此方法中的特征融合的方法包括前期融合：特征的拼接、不同特征对齐加权求和；后期融合：不同特征模型输出的概率的加权融合，使用前期融合的特征对已生成的LSTM模型进行微调。在标准测试集MSVD上进行实验，结果表明：融合不同类型的特征方法能够获得更高评测分值的提升；相同类型的特征融合的评测结果不会高于单个特征的分值；使用特征对预训练好的模型进行微调的方法效果较差。其中使用前期融合与后期融合相结合的方法生成的视频自然语言描述得到的METEOR评测分值为0.302，比目前查到的最高值高1.34%，表明该方法可以提升视频自动描述的准确性。

参考文献 | 相关文章 | 多维度评价